14 research outputs found

    Conflict-Free Networks on Chip for Real Time Systems

    Full text link
    [ES] La constante necesidad de un mayor rendimiento para cumplir con la gran demanda de potencia de cómputo de las nuevas aplicaciones, (ej. sistemas de conducción autónoma), obliga a la industria a apostar por la tecnología basada en Sistemas en Chip con Procesadores Multinúcleo (MPSoCs) en sus sistemas embebidos de seguridad-crítica. Los sistemas MPSoCs generalmente incluyen una red en el chip (NoC) para interconectar los núcleos de procesamiento entre ellos, con la memoria y con el resto de recursos compartidos. Desafortunadamente, el uso de las NoCs dificulta alcanzar la predecibilidad en el tiempo, ya que pueden aparecer conflictos en muchos puntos y de forma distribuida a nivel de red. Para afrontar este problema, en esta tesis se propone un nuevo paradigma de diseño para NoCs de tiempo real donde los conflictos en la red son eliminados por diseño. Este nuevo paradigma parte del Grafo de Dependencia de Canales (CDG) para evitar los conflictos de red de forma determinista. Nuestra solución es capaz de inyectar mensajes de forma natural usando un periodo TDM igual al límite teórico óptimo sin la necesidad de usar un proceso offline exigente computacionalmente. La red se ha integrado en un sistema multinúcleo basado en tiles y adaptado a su jerarquía de memoria. Como segunda contribución principal, proponemos un nuevo planificador dinámico y distribuido capaz de alcanzar un rendimiento pico muy cercanos a las NoC basadas en un diseño wormhole sin comprometer sus garantías de tiempo real. El planificador se basa en nuestro diseño de red para explotar sus propiedades clave. Los resultados de nuestra NoC muestran que nuestro diseño garantiza la predecibilidad en el tiempo evitando interferencias en la red entre múltiples aplicaciones ejecutándose concurrentemente. La red siempre garantiza el rendimiento y también mejora el rendimiento respecto al de las redes wormhole en una red 4 x 4 en un factor de 3,7x cuando se inyecta trafico para generar interferencias. En una red 8 x 8 las diferencias son incluso mayores. Además, la red obtiene un ahorro de área total del 10,79% frente a una implementación básica de una red wormhole. El planificador propuesto alcanza una mejora de rendimiento de 6,9x y 14,4x frente la versión básica de la red DCFNoC para redes en forma de malla de 16 y 64 nodos, respectivamente. Cuando lo comparamos frente a un conmutador estándar wormhole se preserva un rendimiento de red del 95% al mismo tiempo que preserva la estricta predecibilidad en el tiempo. Este logro abre la puerta a nuevos diseños de NoCs de alto rendimiento con predecibilidad en el tiempo. Como contribución final, construimos una taxonomía de NoCs basadas en TDM con propiedades de tiempo real. Con esta taxonomía realizamos un análisis exhaustivo para estudiar y comparar desde tiempos de respuesta, a implementaciones con bajo coste, pasando por soluciones de compromiso para diseños de NoCs de tiempo real. Como resultado, obtenemos nuevos diseños de NoCs basadas en TDM.[CA] La constant necessitat d'un major rendiment per a complir amb la gran demanda de potència de còmput de les noves aplicacions, (ex. sistemes de conducció autònoma), obliga la indústria a apostar per la tecnologia basada en Sistemes en Xip amb Processadors Multinucli (MPSoCs) en els seus sistemes embeguts de seguretat-crítica. Els sistemes MPSoCs generalment inclouen una xarxa en el xip (NoC) per a interconnectar els nuclis de processament entre ells, amb la memòria i amb la resta de recursos compartits. Desafortunadament, l'ús de les NoCs dificulta aconseguir la predictibilitat en el temps, ja que poden aparéixer conflictes en molts punts i de forma distribuïda a nivell de xarxa. Per a afrontar aquest problema, en aquesta tesi es proposa un nou paradigma de disseny per a NoCs de temps real on els conflictes en la xarxa són eliminats per disseny. Aquest nou paradigma parteix del Graf de Dependència de Canals (CDG) per a evitar els conflictes de xarxa de manera determinista. La nostra solució és capaç d'injectar missatges de mra natural fent ús d'un període TDM igual al límit teòric òptim sense la necessitat de fer ús d'un procés offline exigent computacionalment. La xarxa s'ha integrat en un sistema multinucli basat en tiles i adaptat a la seua jerarquia de memòria. Com a segona contribució principal, proposem un nou planificador dinàmic i distribuït capaç d'aconseguir un rendiment pic molt pròxims a les NoC basades en un disseny wormhole sense comprometre les seues garanties de temps real. El planificador es basa en el nostre disseny de xarxa per a explotar les seues propietats clau. Els resultats de la nostra NoC mostren que el nostre disseny garanteix la predictibilitat en el temps evitant interferències en la xarxa entre múltiples aplicacions executant-se concurrentment. La xarxa sempre garanteix el rendiment i també millora el rendiment respecte al de les xarxes wormhole en una xarxa 4 x 4 en un factor de 3,7x quan s'injecta trafic per a generar interferències. En una xarxa 8 x 8 les diferències són fins i tot majors. A més, la xarxa obté un estalvi d'àrea total del 10,79% front una implementació bàsica d'una xarxa wormhole. El planificador proposat aconsegueix una millora de rendiment de 6,9x i 14,4x front la versió bàsica de la xarxa DCFNoC per a xarxes en forma de malla de 16 i 64 nodes, respectivament. Quan ho comparem amb un commutador estàndard wormhole es preserva un rendiment de xarxa del 95% al mateix temps que preserva la estricta predictibilitat en el temps. Aquest assoliment obri la porta a nous dissenys de NoCs d'alt rendiment amb predictibilitat en el temps. Com a contribució final, construïm una taxonomia de NoCs basades en TDM amb propietats de temps real. Amb aquesta taxonomia realitzem una anàlisi exhaustiu per a estudiar i comparar des de temps de resposta, a implementacions amb baix cost, passant per solucions de compromís per a dissenys de NoCs de temps real. Com a resultat, obtenim nous dissenys de NoCs basades en TDM.[EN] The ever need for higher performance to cope with the high computational power demands of new applications (e.g autonomous driving systems), forces industry to support technology based on multi-processors system on chip (MPSoCs) in their safety-critical embedded systems. MPSoCs usually include a network-on-chip (NoC) to interconnect the cores between them and, with memory and the rest of shared resources. Unfortunately, the inclusion of NoCs difficults achieving time predictability as network-level conflicts may occur in many points in a distributed manner. To overcome this problem, this thesis proposes a new time-predictable NoC design paradigm where conflicts within the network are eliminated by design. This new paradigm builds on top of the Channel Dependency Graph (CDG) in order to deterministically avoid network conflicts. Our solution is able to naturally inject messages using a TDM period equal to the optimal theoretical bound without the need of using a computationally demanding offline process. The network is integrated in a tile-based manycore system and adapted to its memory hierarchy. As a second main contribution, we propose a novel distributed dynamic scheduler that is able to achieve peak performance close to a wormhole-based NoC design without compromising its real-time guarantees. The scheduler builds on top of our NoC design to exploit its key properties. The results of our NoC show that our design guarantees time predictability avoiding network interference among multiple running applications. The network always guarantees performance and also improves wormhole performance in a 4 x 4 setting by a factor of 3.7x when interference traffic is injected. For a 8 x 8 network differences are even larger. In addition, the network obtains a total area saving of 10.79% over a standard wormhole implementation. The proposed scheduler achieves an overall throughput improvement of 6.9x and 14.4x over a baseline conflict-free NoC for 16 and 64-node meshes, respectively. When compared against a standard wormhole router 95% of its network throughput is preserved while strict timing predictability is kept. This achievement opens the door to new high performance time predictable NoC designs. As a final contribution, we build a taxonomy of TDM-based NoCs with real-time properties. With this taxonomy we perform a comprehensive analysis to study and compare from response time specific, to low resource implementation cost, through trade-off solutions for real-time NoCs designs. As a result, we derive new TDM-based NoC designs.Picornell Sanjuan, T. (2021). Conflict-Free Networks on Chip for Real Time Systems [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/177347TESI

    Desarrollo de un Procesador de Altas Prestaciones para una Arquitectura Multinúcleo en FPGA #2

    Full text link
    [ES] En este trabajo se diseña e implementa un procesador con ejecución fuera de orden siguiendo como modelo el algoritmo de Tomasulo. El procesador es reconfigurable y permite tanto la instanciación de un número variable de unidades funcionales y recursos como la obtención de diferentes configuraciones, cada una con una relación prestaciones/recursos distinta. El procesador se está integrando en la arquitectura PEAK desarrollada en el Grupo de Arquitecturas Paralelas (GAP) del Departamento de Informática de Sistemas y Computadores (DISCA) de la Universitat Politècnica de València (UPV). El procesador incluye todos los componentes esenciales para su completa operatividad así como soporte para un conjunto amplio del juego de instrucciones de la arquitectura MIPS32. Cabe añadir que todos los componentes se han diseñado e implementado por completo en el marco del presente trabajo. El trabajo incluye el diseño de tests de prueba y diferentes programas para verificar y validar cada componente y las diferentes configuraciones finales del procesador. Por otro lado, se ha sintetizado cada uno de los componentes con el fin de obtener los recursos que necesita para su implementación en un sistema FPGA. A lo largo del desarrollo del trabajo se han utilizado herramientas comerciales como Vivado de Xilinx, simuladores (QtSpim) y software de control de versiones (Git).[CA] En aquest treball es dissenya i implementa un processador amb execució fora d’ordre seguint com a model l’algorisme de Tomasulo. El processador és recon- figurable i permet tant la instanciació d’un nombre variable d’unitats funcionals i recursos com l’obtenció de diferents configuracions, cadascuna amb una relació prestacions/recursos diferent. El processador s’està integrant en l’arquitectura PEAK desenvolupada en el Grup d’Arquitectures Paral·leles (GAP) del Departament d’Informàtica de Sistemes i Computadors (DISCA) de la Universitat Politècnica de València (UPV). El processador inclou tots els components essencials per a la seua completa operativitat així com suport per a un conjunt ampli del joc d’instruccions de l’arquitectura MIPS32. Cal afegir que tots els components s’han dissenyat i implementat per complet en el marc del present treball. El treball inclou el diseny de tests de prova i diferents programes per a verifi- car i validar cada component i les diferents configuracions finals del processador. D’altra banda s’ha sintetitzat cadascun dels components amb la finalitat d’obtenir els recursos que necessita per a la seua implementació en un sistema FPGA. Al llarg del desenvolupament del treball s’han fet servir diverses ferramentes comercials com ara Vivado de Xilinx, simuladors (QtSpim) i programari de control de versions (Git).[EN] This project involves the design and implementation of a processor with outof-order execution using the Tomasulo algorithm. The processor is configurable, allowing a variable number of resources and functional units. Different configurations can be created, each with a different performance/resource ratio. The processor is being integrated into the PEAK architecture developed by the Grupo de Arquitecturas Paralelas (GAP) del Departamento de Informática de Sistemas y Computadores (DISCA) de la Universitat Politècnica de València (UPV). PEAK is a multi-core arquitecture for multi-FPGA development environments and prototyping. The processor includes all the essential components and is fully operational along with support for a wide array of the MIPS32 architecture instruction set. All components have been designed and implemented as part of this project. A multitude of tests and programs have been designed to verify and validate each component along with the different configurations of the processor. The synthesis of each of the components and the processor (in it’s different configurations) has also been performed with the goal of obtaining the resource usage on a FPGA system. During the development of this project different commercial tools have been used such as Xilinx Vivado, simulators (QtSpim) and version control software (Git).Picornell Sanjuan, T. (2015). Desarrollo de un Procesador de Altas Prestaciones para una Arquitectura Multinúcleo en FPGA #2. http://hdl.handle.net/10251/54039.TFG

    Diseño e implementación de soporte de calidad de servicio en arquitecturas multinúcleo

    Full text link
    [EN] Networks on chip play a vital rol in application domains when QoS must be assured. Multicore systems, when running applications, need to guarantee certain levels of bandwidths and latency bounds for packet transmissions. In order to achieve that, we need to implement network-level mechanisms that will enable partitioning the available bandwidth of the network. In the other hand, the GAP group is developing a complete manycore system (PEAK) and porting it to multi-FPGA platforms, enabling the execution of applications. The goal of this project is to provide those QoS mechanisms needed at network level and to expose the configuration of such mechanisms to the resource manager running on the system, in order to manage in an efficient and dynamic way the available bandwidth. The work will develop a complete infrastructure of virtual channels and virtual networks that will be reconfigured both at implementation time and at execution time (once implemented on a multi-FPGA system).[ES] Las redes en el chip juegan un papel clave en los sistemas con soporte a calidad de servicio. Los sistemas multinúcleo, al ejecutar aplicaciones diversas, necesitan garantizar anchos de banda y latencias de transmisión máximas. Para ello, se necesitan mecanismos a nivel de red en el chip que particionen el ancho de banda disponible en la red. Por otro lado, el grupo GAP está desarrollando un sistema multinúcleo (PEAK) en sistemas multi-FPGA que permite ejecutar aplicaciones. El objetivo del trabajo es proveer de dichos mecanismos de calidad de servicio a nivel de red y de exponer la configuración de dichos mecanismos al gestor del sistema con el fin de gestionar de forma eficiente y dinámica el ancho de banda de la red. El trabajo desarrollará toda una infraestructura de canales virtuales y redes virtuales reconfigurable tanto en la fase de implementación como en la fase de utilización (una vez implementado en el sistema multi-FPGA).Picornell Sanjuan, T. (2016). Diseño e implementación de soporte de calidad de servicio en arquitecturas multinúcleo. http://hdl.handle.net/10251/6808

    Enforcing Predictability of Many-cores with DCFNoC

    Get PDF
    © 2021 IEEE. Personal use of this material is permitted. Permissíon from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertisíng or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.[EN] The ever need for higher performance forces industry to include technology based on multi-processors system on chip (MPSoCs) in their safety-critical embedded systems. MPSoCs include a network-on-chip (NoC) to interconnect the cores between them and with memory and the rest of shared resources. Unfortunately, the inclusion of NoCs compromises guaranteeing time predictability as network-level conflicts may occur. To overcome this problem, in this paper we propose DCFNoC, a new time-predictable NoC design paradigm where conflicts within the network are eliminated by design. This new paradigm builds on top of the Channel Dependency Graph (CDG) in order to deterministically avoid network conflicts. The network guarantees predictability to applications and is able to naturally inject messages using a TDM period equal to the optimal theoretical bound without the need of using a computationally demanding offline process. DCFNoC is integrated in a tile-based many-core system and adapted to its memory hierarchy. Our results show that DCFNoC guarantees time predictability avoiding network interference among multiple running applications. DCFNoC always guarantees performance and also improves wormhole performance in a 4 × 4 setting by a factor of 3.7× when interference traffic is injected. For a 8 × 8 network differences are even larger. In addition, DCFNoC obtains a total area saving of 10.79% over a standard wormhole implementation.This work has been supported by MINECO under Grant BES-2016-076885, by MINECO and funds from the European ERDF under Grant TIN2015-66972-C05-1-R and Grant RTI2018-098156-B-C51, and by the EC H2020 RECIPE project under Grant 801137.Picornell-Sanjuan, T.; Flich Cardo, J.; Hernández Luz, C.; Duato Marín, JF. (2021). Enforcing Predictability of Many-cores with DCFNoC. IEEE Transactions on Computers. 70(2):270-283. https://doi.org/10.1109/TC.2020.2987797S27028370

    HP-DCFNoC: High Performance Distributed Dynamic TDM Scheduler Based on DCFNoC Theory

    Full text link
    (c) 2020 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other users, including reprinting/ republishing this material for advertising or promotional purposes, creating new collective works for resale or redistribution to servers or lists, or reuse of any copyrighted components of this work in other works.[EN] The need for increasing the performance of critical real-time embedded systems pushes the industry to adopt complex multi-core processor designs with embedded networks-on-chip. In this paper we present hp-DCFNoC, a distributed dynamic scheduler design that by relying on the key properties of a delayed confict-free NoC (DCFNoC) is able to achieve peak performance numbers very close to a wormhole-based NoC design without compromising its real-time guarantees. In particular, our results show that the proposed scheduler achieves an overall throughput improvement of 6.9x and 14.4x over a baseline DCFNoC for 16 and 64-node meshes, respectively. When compared against a standard wormhole router 95% of its network throughput is preserved while strict timing predictability as property is kept. This achievement opens the door to new high performance time predictable NoC designs.This work was supported in part by the Secretara de Estado de Investigacin Desarrollo e Innovacin (MINECO) under Grant BES-2016-076885, in part by the European Regional Development Fund (ERDF) under Grant TIN2015-66972-C05-1-R and Grant RTI2018-098156-B-C51, and in part by the EC H2020 European Institute of Innovation and Technology (SELENE) Project under Grant 871467.Picornell-Sanjuan, T.; Flich Cardo, J.; Duato Marín, JF.; Hernández Luz, C. (2020). HP-DCFNoC: High Performance Distributed Dynamic TDM Scheduler Based on DCFNoC Theory. IEEE Access. 8:194836-194849. https://doi.org/10.1109/ACCESS.2020.3033853S194836194849

    The MANGO Process for Designing and Programming Multi-Accelerator Multi-FPGA Systems

    Full text link
    [EN] This paper describes the approach followed in the European FETHPC MANGO project to design and program systems made of multiple FPGAs interconnected. The MANGO approach relies on the instantiation and management of multiple generic and custom-made accelerators which can be programmed to communicate each other via shared memory and through synchronization registers. The paper introduces the low level architecture including the multi-FPGA interconnect deployed, the communication protocol and the architectural template-based approach to simplify the design process.This work is supported by the European Commission through MANGO project, under the Horizon 2020 FET-HPC program, grant number 671668.Tornero-Gavilá, R.; Flich Cardo, J.; Martínez Martínez, JM.; Picornell-Sanjuan, T.; Scotti, V. (2018). The MANGO Process for Designing and Programming Multi-Accelerator Multi-FPGA Systems. En Fourth International Workshop on Heterogeneous High-Performance Reconfigurable Computing (H2RC'18). ACM. http://hdl.handle.net/10251/114284

    Improving the Robustness of Redundant Execution with Register File Randomization

    Full text link
    [EN] Staggered Redundant execution (SRE) is a fault-tolerance mechanism that has been widely deployed in the context of safety-critical applications. SRE not only protects the system in the presence of faults but also helps relaxing safety requirements of individual elements. However, in this paper, we show that SRE does not effectively protect the system against a wide range of faults and thus, new mechanisms to increase the diversity of homogeneous cores are needed. In this paper, we propose Register File Randomization (RFR), a low-cost diversity mechanism that significantly increases the robustness of homogeneous multicores in front of common-cause faults (CCFs) and register file wearout. Our results show that RFR completely removes the failure rate for register file CCFs for certain workloads and reduces by a factor of 5X the impact of stress related register file aging for the workloads analysed. Our implementation requires less than 50 RTL lines of code and the area (FPGA logic) overhead of RFR is less than 0.2% of a 64-bit RISC-V core FPGA implementation.This work has received funding from the ECSEL Joint Undertaking (JU) under grant agreement No 877056 and the Agencia Estatal de Investigacion from Spain under grant agreement no. PCI2020-112092, and from the the European Unions Horizon 2020 research and innovation programme under grant agreement no. 871467.Tuzov, I.; Andreu, P.; Medina, L.; Picornell-Sanjuan, T.; Robles Martínez, A.; López Rodríguez, PJ.; Flich Cardo, J.... (2021). Improving the Robustness of Redundant Execution with Register File Randomization. IEEE. 1-9. https://doi.org/10.1109/ICCAD51958.2021.96434661

    STRs del cromosoma Y en dos poblaciones del NOA (Puna y Valles Calchaquíes)

    Get PDF
    Se presenta un estudio genético preliminar basado en polimorfismos del cromosoma Y de dos poblaciones del NOA (Salta): la Puna y Valles Calchaquíes. La región de la Puna, es una típica meseta andina de altura (con elevaciones que pueden superar los 6.000 m), árida o semiárida. Las características climáticas, topográficas y productivas, provocan el aislamiento de las poblaciones humanas de esta región. En la región de los Valles Calchaquíes (Cordillera Oriental de los Andes, aprox. 3.000 m de altitud) se desarrollaron sociedades prehispánicas de alto nivel socioeconómico y diversidad cultural. Es un área con características ecológicas y culturales específicas, combinación de andinas y amazónicas. Se analizaron un total de 51 muestras de sangre de hombres no emparentados (38 de la Puna y 13 de los Valles Calchaquíes). Se determinaron cinco STRs: DYS19, DYS389-I, DYS389-II, DYS390 y DYS391. La co-amplificación se realizó en un GeneAmp PCR System 2400 y el análisis en un ABI Prism 310 DNA Sequencer. Se obtuvieron 15 haplotipos en la Puna, siendo el 13-11-27-23-10 el mayoritario (31.6%), con una diversidad haplotípica de 0.879. En los Valles Calchaquíes se obtuvieron 11, con una diversidad haplotípica de 0.974. Sólo hay un haplotipo compartido por las dos poblaciones. Las comparaciones con población española y argentina revelaron una clara diferenciación genética de las poblaciones estudiadas.Asociación de Antropología Biológica de la República Argentin

    STRs del cromosoma Y en dos poblaciones del NOA (Puna y Valles Calchaquíes)

    Get PDF
    Se presenta un estudio genético preliminar basado en polimorfismos del cromosoma Y de dos poblaciones del NOA (Salta): la Puna y Valles Calchaquíes. La región de la Puna, es una típica meseta andina de altura (con elevaciones que pueden superar los 6.000 m), árida o semiárida. Las características climáticas, topográficas y productivas, provocan el aislamiento de las poblaciones humanas de esta región. En la región de los Valles Calchaquíes (Cordillera Oriental de los Andes, aprox. 3.000 m de altitud) se desarrollaron sociedades prehispánicas de alto nivel socioeconómico y diversidad cultural. Es un área con características ecológicas y culturales específicas, combinación de andinas y amazónicas. Se analizaron un total de 51 muestras de sangre de hombres no emparentados (38 de la Puna y 13 de los Valles Calchaquíes). Se determinaron cinco STRs: DYS19, DYS389-I, DYS389-II, DYS390 y DYS391. La co-amplificación se realizó en un GeneAmp PCR System 2400 y el análisis en un ABI Prism 310 DNA Sequencer. Se obtuvieron 15 haplotipos en la Puna, siendo el 13-11-27-23-10 el mayoritario (31.6%), con una diversidad haplotípica de 0.879. En los Valles Calchaquíes se obtuvieron 11, con una diversidad haplotípica de 0.974. Sólo hay un haplotipo compartido por las dos poblaciones. Las comparaciones con población española y argentina revelaron una clara diferenciación genética de las poblaciones estudiadas.Asociación de Antropología Biológica de la República Argentin

    End-to-end QoS for the open source safety-relevant RISC-V SELENE platform

    Get PDF
    This paper presents the end-to-end QoS approach to provide performance guarantees followed in the SELENEplatform, a high-performance RISC-V based heterogeneous SoC for safety-related real-time systems. Our QoS approach includes smart interconnect solutions for buses and NoCs, along with multicore interference-aware statistics units to, cooperatively, achieve end-to-end QoS.This work has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement no. 871467. BSC work has also been partially supported by the Spanish Ministry of Science and Innovation under grant PID2019-107255GB-C21/AEI/10.13039/501100011033.Peer ReviewedPostprint (published version
    corecore